2024-ICLR-Improving Convergence and Generalization Using Parameter Symmetries

Introduction

DNNでは、局所最適解の存在により、同じ損失をとっても異なるパラメタをとるときがよくある。しかし、地点により勾配が違うので、どうせ降下するし、パラメタが十分に多いなら局所最適解でも十分に良いなら、同じような損失関数の値をとるが勾配がより急な点に移って、そこで勾配降下法を解けば素早く収束しないか？=Teleportation。

しかし、それの理論的なnot convex関数での収束の保証はまだ存在してない。

今までは学習の加速のみ考えられていたが、仮定のもとでTelepotationではモデルの汎化性能まで上がるとも分かった。

そして、SGDのみならずAdaGrad、RMSProp、Adamにも適用した。

パラメタ空間の対称性

対称性があるということは、DNNが特定の変換を施しても損失関数が変わらない性質をいう。

例)すべてのパラメタを等倍しても出力は変わらない、重み行列の列ベクトルを入れ替える、今の層でスケーリングしても次の層で縮めるとか。

対称性を持つと、明確に異なるパラメタであっても同じ損失を持つ点を持つ。

最小値のsharpnessと汎化性能

より周辺のgradientが平坦な局所最適解は一般的にrobustである。

鋭さは以下のような測り方がある。

ヘッセ行列の小さな(なだらかな方向)の固有値の数が多いほど緩い。
- ヘッセ行列は対称行列で、それを対角化することは各軸ごとの曲率(高いほど急に曲がっている)を得ることができる。
ヘッセ行列の大きい順に $k$ 個の固有値の積をとる。
最小値の点の近傍にある最大の損失をとる値。

なぜTeleportationは有効なのか

なぜTeleportationは周囲が平たんな最小値に収束するのかをニュートン法をベースで証明した。これは1次や2次収束の間の速度。

パラメタ空間に作用する群 $G$ に属するすべての元 $\forall g$ について、パラメタ $\mathbf{w}$ の変換 $g \cdot \mathbf{w}$ を定義して、 $\forall g$ で変換しても、損失が変わらない $L(\mathbf{w}) = L(g \cdot \mathbf{w})$ が保証されないといけない。その中で、Gradientの $\nabla L(g \cdot \mathbf{w})$ を最大化するものを選んで、そこに手レポートする。それを対称Teleportationという。

具体的な実現は、今の層で $c$ 倍して、次の層で $1/c$ 倍する、行列の列ベクトルを入れ替えるなど。

群とは、加法について閉じていて、結合法則、単位元、逆元が存在するというもの。

この時、勾配降下法では、 $\mathbf{w}_t$ からGradientを計算して更新するのではなく、以下のようにテレポートしてそこでの勾配を利用して更新する。

\mathbf{w}_{t+1} = g \cdot \mathbf{w} - \eta \nabla L(g \cdot \mathbf{w})

定理3.1: Teleportationしても勾配のノルムは学習が進むにつれて小さくなるしどんどん上限を持つ。

内容

学習によって得られたモデルのパラメタ $\mathbf{w}^*$ 、ミニバッチ $\xi$ を考える。
$\sigma^2 = L(\mathbf{w}^*) - \mathbb{E}[\inf _{\mathbf{w}}L(\mathbf{w}, \xi)]$ 。学習で得られたモデルのパラメタを使うのと、今のミニバッチに最適なパラメタを使う。
最大なGradient $\nabla L(g \cdot \mathbf{w})$ について、変換の $g^t$ を考える。
ステップサイズを $\eta = \frac{1}{\beta \sqrt{T-1}}$ とする。